DolphinScheduler调度Spark
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统,能高效地执行和管理大数据流程。您可以借助Spark-Submit命令行工具,在DolphinScheduler Web界面轻松创建、编辑、调度云原生数据仓库 AnalyticDB MySQL 版的Spark作业。
前提条件
AnalyticDB for MySQL集群的产品系列为企业版、基础版或湖仓版。
已在AnalyticDB for MySQL集群中创建Job型资源组。具体操作,请参见新建资源组。
已安装JDK,且JDK的版本为1.8及以上版本。
已安装DolphinScheduler。具体操作,请参见DolphinScheduler官方文档。
已将运行DolphinScheduler的服务器IP地址添加至AnalyticDB for MySQL集群的白名单中。具体操作,请参见设置白名单。
操作步骤
安装Spark-Submit命令行工具并配置相关参数。安装操作与参数说明,请参见安装Spark-Submit和参数配置。
说明您只需要配置
keyId
、secretId
、regionId
、clusterId
和rgName
这些必填参数。如果您的Spark JAR包在本地,还需要配置ossUploadPath
等OSS相关参数。创建项目。
访问DolphinScheduler Web界面,在顶部导航栏单击项目管理。
单击创建项目。
在弹出的创建项目对话框中配置项目名称、所属用户等参数。详情请参见创建项目。
创建工作流。
单击已创建的项目名称,进入工作流定义页面。
单击创建工作流,进入工作流DAG编辑页面。
在页面左侧选择SHELL,并将其拖拽到右侧空白画布中。
在弹出的当前节点设置对话框中配置如下参数:
参数
说明
节点名称
工作流节点的名称。
脚本
Spark-Submit命令行工具的安装地址及Spark作业的业务代码。例如:
/root/adb-spark-toolkit-submit/bin/spark-submit --class org.apache.spark.examples.SparkPi --name SparkPi --conf spark.driver.resourceSpec=medium --conf spark.executor.instances=2 --conf spark.executor.resourceSpec=medium local:///tmp/spark-examples.jar 1000
。重要调度Spark作业时,必须要在脚本中指定Spark-Submit命令行工具的地址,否则调度任务可能会找不到Spark-Submit命令。
说明其他参数说明请参见DolphinScheduler任务参数。
单击确认。
单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。
运行工作流。
单击工作流操作列的按钮,上线工作流。
单击工作流操作列的按钮。
在弹出的启动前请先设置参数对话框中,配置对应参数。
单击确定,运行工作流。
查看工作流详细信息。
在左侧导航栏单击任务实例。
在操作列,单击按钮,查看工作流执行结果和日志信息。